• 検索結果がありません。

講義用ノート | ( 平成 29 年度夏学期 )| ビジネス統計学

N/A
N/A
Protected

Academic year: 2021

シェア "講義用ノート | ( 平成 29 年度夏学期 )| ビジネス統計学"

Copied!
31
0
0

読み込み中.... (全文を見る)

全文

(1)

ビジネス統計学

(

平成

29

年度夏学期

)

講義用ノート

谷 口 説 男

(

九州大学 基幹教育院

) (

平成

29

5

17

日版

)

0This note is c2017 by Setsuo Taniguchi. It may be used for personal or classroom purposes, but not for commercial purposes.

(2)
(3)

i

はじめに

統計学の歴史

(http://www.stat.go.jp/teacher/c2epi1.htm

から)

データの収集

“国勢調査”=国の実情を知る…徴兵,徴税,福祉

statistics (英) statistik (独) status (ラテン=国家・状態)

歴史は古い…古代エジプト,ローマ帝国

IBM

はもとは国勢調査用紙を作ってた.

データから規則性を見出す アマゾン,顧客管理,…

ICT

の発展で非常に扱いやすくなった

ハレー

(1956-1742)

:死亡記録から死亡年齢を解析.終身年金価格決定に

寄与.

ナイチンゲール

(1820-1910):戦死者・傷病者のデータ解析により,治療・

衛生状況が死因であることを見出す

(見やすい円グラフ).

確率的事象をとらえる

自然科学,工学,耐久検査,品質管理,

数理統計学

(データ) = (真の値) + (誤差)

ドゥ・モワブル

(年金論→保険数理)

ベルヌーイ

(天然痘の罹病率,死亡率→数理疫学)

オイラー,ラプラス

(

フランスの人口推計

)

この講義では…

エクセルを使って実際に計算をしてみます.

PC

必携です.

必要な資料は

http://www.artsci.kyushu-u.ac.jp/

se2otngc/

(4)

Contents

1

相関係数

1

1.1

相関係数

. . . . 1 1.2

散布図

. . . . 3

2

単回帰分析

4

2.1

単回帰分析

. . . . 4 2.2

回帰分析の応用

. . . . 6

3

確率論速習

10

3.1

確率変数

. . . . 10 3.2

確率の求め方

. . . . 11 3.3

正規分布

. . . . 12

4

差はあるのか?—平均の差の検定

14

4.1

検定の考え方

. . . . 14 4.2

モデルの導入

. . . . 15 4.3

片側検定

. . . . 18

5

差はあるのか?—独立性の検定

20

5.1

サンドイッチの嗜好

. . . . 20

5.2

ピアソンの

χ

2

(カイ二乗)

独立性検定

. . . . 21

5.3

適合度検定

. . . . 22

6

組み合わせで売れ行きは変わる?—交互作用の検定

24

6.1

はじめに

. . . . 24

6.2

グラフでは

. . . . 24

6.3

分散分析—交互作用

. . . . 24

(5)

1

相関係数

1

1.

相関係数

1.1.

相関係数

1.1.1.

データの例

最高気温 平均気温 最低気温 アイスクリーム売上げ

1

9.9 6.6 3.5 780

2

11.1 7.4 4.1 950

3

14.4 10.4 6.7 1280

4

19.5 15.1 11.2 1255

5

23.7 19.4 15.6 1290

6

26.9 23 19.9 1650

7

30.9 27.2 24.3 2000

8

32.1 28.1 25 2430

9

28.3 24.4 21.3 1200

10

23.4 19.2 15.4 1150

11

17.8 13.8 10.2 1210

12

12.6 8.9 5.6 1045

1.1.2.

データの一般形

(x

1

, y

1

), . . . , (x

n

, y

n

)

(1

月最高気温,

1

月売上げ), . . . ,

(12

月最高気温,

12

月売上げ)

(1

月平均気温,

1

月売上げ), . . . ,

(12

月平均気温,

12

月売上げ)

(1

月最低気温

, 1

月売上げ

), . . . , (12

月最低気温

, 12

月売上げ

) 1.1.3.

相関係数を決めるための量

S

xx

=

n i=1

(x

i

x

n

)

2

, S

xy

=

n i=1

(x

i

y

n

)(y

i

y

n

),

S

yy

=

n i=1

(y

i

y

n

)

2

,

ただし,xn

= x

1

+ · · · + x

n

n , y

n

= y

1

+ · · · + y

n

n ,

1.1.4.

相関係数

r

xy

r

xy

= S

xy

S

xx

S

yy

(6)

1.1.5.

図形的には

n = 2

とする.

⃗a = (x

1

x, x

2

x), ⃗b = (y

1

y, y

2

y)

とおけば,

S

xy

= ⃗a · ⃗b, S

xx

= ⃗a , S

yy

= ⃗b .

したがって,θ

= ⃗a

⃗b

のなす角 とすると

r

xy

= ⃗a · ⃗b

⃗a ∥ ∥ ⃗b = cos θ

となる.

 したがって,

r

xyはデータの散らかり方が「どれだけ同じ向きを向いてい るか?」を表す指標である.

1.1.6. (a) y

1

= x

1

, . . . , y

n

= x

nならば,rxy

= 1.

(b) y

1

= x

1

, . . . , y

n

= x

nならば,rxy

= 1 (c) y

i

= ax

i

+ b

ならば,

r

xy

=

{

1 (a > 0)

1 (a < 0) . 1.1.7. x

y

に強い関係があっても

r

xy

= 1

とはならない.

x

1

, . . . , x

10

, y

1

, . . . , y

10

, y

i

= x

4i のとき

X 9 8 7 10 13

Y 6561 4096 2401 10000 28561

X 11 9 8 12 9

Y 14641 6561 4096 20736 6561 r

xy

= 0.972

エクセルで確かめてみよう

! 1.1.8.

エクセルでやってみるには

S

xxは関数

VAR.P([x

の範囲])*(データの個数)で求まる.

S

yyは関数

VAR.P([y

の範囲])*(データの個数)で求まる.

S

xyは関数

COVARIANCE.P([x

の範囲],[yの範囲])*(データの個

)

で求まる.

r

xy

[S

xy

]/(SQRT([S

xx

])*SQRT([S

yy

]))

で求まる.

注:[Sxy

]

S

xyの値を求めたセルを表わす

より簡単に

r

xy

CORREL([x

の範囲

],[y

の範囲

])

としても求まる.

注意

1

VAR

variance

の略であり,

CORREL

correlation

の略で ある.

注意

2: .P

というおまじないは「population」に由来している.エクセル には,もう一つ,.Sがつくものもある.こちらは「sample」に由来してお り,「不偏」という名の付くものと対応している.

(7)

1

相関係数

3

1.1.9.

気温とアイスクリーム売上げの相関係数

最高気温

0.980

,平均気温

0.974

,最低気温

0.958

エクセルで確かめてみよう

1.2.

散布図

視覚的に見るには,エクセルの「散布図」を使ってみるとよい.

データ領域を選択し,「挿入」→「グラフ」→「散布図」と選べばよい.

(8)

2.

単回帰分析

2.1.

単回帰分析

2.1.1.

問題 平均気温とアイスクリームの売り上げの関係をより詳しく説明した

い.たとえば,気温

20

度ならどの程度アイスクリームは売れるのか?

平均気温 アイスクリーム売上げ

6.6 780

7.4 950

10.4 1280

15.1 1255

19.4 1290

23 1650

27.2 2000

28.1 2430

24.4 1200

19.2 1150

13.8 1210

8.9 1045

2.1.2.

アイディア 散布図に上手に直線

y = ax + b

を引いて

x = 20

を代入する!

a, b

はどう求める

?

2.1.3.

回帰直線

(x

1

, y

1

), . . . , (x

n

, y

n

)

をデータとする.

x = x

1

+ · · · + x

n

n , y = y

1

+ · · · + y

n

n ,

S

xy

=

n i=1

(x

i

x)(y

i

y), S

xx

=

n i=1

(x

i

x)

2

, b

a = S

xy

S

xx

, b b = y b a x

(9)

2

単回帰分析

5

とおくと,

a = b a

b = b b

が求める

a, b

である.

直線

y = b ax + b b

を回帰直線と呼ぶ.

2.1.4.

最小二乗法

Q(a, b) =

n i=1

{ y

i

(ax

i

+ b) }

2

(

残差

)

最小にする.つぎの事実を使って変形していく:

(

通常の統計の教科書に書 いてある「偏微分」を使う説明は

数学的には難しい

”)

S

xx

= ∑

i

{ x

2i

2xx

i

+ (x)

2

} = ∑

i

x

2i

2nx

2

+ nx

2

= ∑

i

x

2i

nx

2

, S

xy

= ∑

i

{ x

i

y

i

xy

i

yx

i

+ xy } = ∑

i

x

i

y

i

nxy nxy + nxy

= ∑

i

x

i

y

i

nx y, S

yy

= ∑

i

y

i2

ny.

変形は,つぎの通り:

i

{ y

i

(ax

i

+ b) }

2

= ∑

i

(y

i

ax

i

b)

2

= ∑

i

{ y

i2

+ x

2i

a

2

+ b

2

2x

i

y

i

a + 2x

i

ab 2y

i

b }

= nb

2

+ 2n(xa y)b + (∑

i

x

2i

)

a

2

2 (∑

i

x

i

y

i

) a + ∑

i

y

2i

= n { b + (xa y) }

2

n(xa y)

2

+ (∑

i

x

2i

)

a

2

2 (∑

i

x

i

y

i

)

a + ∑

i

y

i2

= n { b + (xa y) }

2

+ (∑

i

x

2i

nx

2

)

a

2

2 (∑

i

x

i

y

i

nx y )

a + ∑

i

y

2i

ny

2

= n { b + (xa y) }

2

+ S

xx

a

2

2S

xy

a + S

yy

= n { b + (xa y) }

2

+ S

xx

( a S

xy

S

xx

)

2

S

xy2

S

xx

+ S

yy

.

二つの

( · · · )

2の項が

0

となるときが最小である.

(10)

2.1.5.

エクセルで

a, b

を求める

1)

実際に

S

xx

, S

xy

, x, y

を計算してみる.(手間がかかる.)

S

xx

VAR.P([x

の範囲

])*(

データの個数

)

S

xy

COVARIANCE.P([x

の範囲],[yの範囲])*(データの個数)

x

AVARAGE([x

の範囲

])

y

AVARAGE([y

の範囲])

a = [S

xy

]/[S

xx

],b = [y] [a] [y]

注:[

· ]

はそれぞれの値を計算したセルを表わす.

2)

エクセルの直接的な関数をつかう.

a

INTERCEPT([y

の範囲],[xの範囲])

b

INTERCEPT([y

の範囲],[xの範囲])

3)

グラフに直線を引く

!

「散布図」

-「近似曲線」 -

「その他のオプション」「グラフに数式を表示する」

2.1.6.

最高気温でやってみよう

2.2.

回帰分析の応用

2.2.1.

トレンド分析

損保会社の累積支払保険金の増加の様子

(トレンド)

を線形回帰する.

1 2 3 4 5 6 7 8 9 10

117 208 335 433 538 701 803 857 966 1176

○ 回帰直線

y = 113.4545x 10.6

11

年目の累積支払保険金:

1237.4

11

年目に支払うであろう金額:

1237.4 1176 = 61.4

(11)

2

単回帰分析

7

○ やってみよう

1 2 3 4 5 6 7 8 9 10

239 476 719 953 1259 1500 1528 1673 2235 2375 2.2.2.

ロジスティック回帰

(もどき)

市場での占有率は,技術進展を繰り返せばどんどん上がるが当然

100%

を超 えない;

y = 1

1 + e

ax+b という形

(ロジスティック)

をしている.

※ 一般のロジスティック回帰では分子は

1

でなく未知の

K

となっており,

これを求めることも問題となる.

○ このデータは次の通り:

1 2 3 4 5

0.006425725 0.011929039 0.013588838 0.031338532 0.040913811

6 7 8 9 10

0.05212115 0.080896291 0.135832283 0.15159588 0.237454253

11 12 13 14 15

0.297813165 0.341376055 0.520958623 0.545791293 0.627789932

16 17 18 19 20

0.719939233 0.802076416 0.859232933 0.908140584 0.942957833

21 22 23 24 25

0.950664594 0.965184638 0.979148139 0.986842793 0.992209042

26 27 28 29 30

0.992894015 0.996895595 0.997354583 0.998558411 0.998587263

z = ln ( 1

y 1

)

と変形し,z

= ax + b

という回帰曲線を求める.

ln x

x = e

zとなる

z

を表す.エクセルでは

LN

を用いる.

※ エクセルで

LOG

log

10のこと.

(12)

a = 0.404, b = 5.291

となる.よって,ロジスティック回帰曲線は

y = 1

1 + e

0.404x+5.291 となる.

○ やってみよう

1 2 3 4 5

0.064790694 0.090423841 0.111418814 0.142571342 0.211331758

6 7 8 9 10

0.288737166 0.355482215 0.368020098 0.533691118 0.589594203

11 12 13 14 15

0.606063121 0.753918853 0.824012705 0.857759485 0.891809752

16 17 18 19 20

0.923783022 0.892751872 0.938201537 0.97154412 0.981719392

2.2.3.

多項式回帰

過去

10

年間の累積支払保険金の半年ごとの額は次のようになっていた.

0.5 1 1.5 2 2.5 3 3.5

5.06 6.23 8.65 13.32 17.98 23.13 30.19

4 4.5 5 5.5 6 6.5 7

36.47 50.27 59.37 73.24 86.27 101.47 103.06

7.5 8 8.5 9 9.5 10

125.92 139.58 160.08 184.41 192.1 225.37

グラフに書いてみると

(13)

2

単回帰分析

9

データは

2

次関数的に増加していっているように見える.あてはまる回帰 曲線は

y = ax

2

+ b

のような

2

次関数かもしれない.

※ 一般の多項式関数での近似は多重回帰分析が必要になる.

z = x

2を導入し,

y = az + b

となる回帰直線を求める.

a = 2.16, b = 4.56

であり,y

= 2.16x

2

+ 4.56

が求める回帰曲線となる.

○ やってみよう

1 2 3 4 5 6 7

7.24 22.85 47.88 82.42 132.77 185.15 256.24

8 9 10 11 12 13 14

324.32 410.69 521.63 618.1 757.69 888.11 1024.46

15 16 17 18 19 20

1137.92 1283.49 1460.3 1654.67 1844.63 2091.71 2.2.4.

その他の関係

(a) y = bx

a

ln y = ln b + a ln x (b) y = b exp(ax)

ln y = ln b + ax

(c) y = b + a ln x (d) y = x

bx + a

1

y = b + a 1 x (e) y = 1

ax + b

1

y = ax + b (f) y = a + b

x

(g) y = exp(a + bx)

1 + exp(a + bx)

→ ロジスティック

(

もどき

)

(14)

3.

確率論速習

3.1.

確率変数

3.1.1.

違うものですか?

 ・1枚のコインを投げて「裏,表」を見る

 ・赤玉,白玉

10

個ずつが入った袋から玉を抜き出し「赤,白」を見る  ・サイコロを投げて出目が「奇数,偶数」を見る

「目くらまし」からベールをはぎ取る 

 ⇒二種類のものを代表するのは「

0

1

」⇔「数字」

3.1.2.

確率変数

X :

知りたいのは確率:

a

より小さいという事象

{ Xa }

の確率

P(Xa) 3.1.3.

【例】

(a)

コイン投げ;Xは表が出たとき

0,裏が出たとき 1

とする.

P(Xa) =

 

 

0 (a < 0)

1

2

(0 ≦ a < 1) 1 (a ≧ 1) (b)

サイコロの出た目

X;

P(Xa) =

 

 

 

 

 

 

 

 

 

 

 

0 (a < 1)

1

6

(1 ≦ a < 2)

2

6

(2 ≦ a < 3)

3

6

(3 ≦ a < 4)

4

6

(4 ≦ a < 5)

5

6

(5 ≦ a < 6) 1 (a ≧ 6)

(c)

鉛筆を回し

y

軸となす角度

X;

P(Xa) =

a

(0 ≦ a ≦ 2π) 3.1.4.

なぜ確率変数?

(a) (データ)=(真の値)

“誤差”

(b) “誤差”

をどう扱う? ⇒ 値の様子の確からしさは分かる

(c)

「確からしさは分かる」=モデルを立てて議論する最小の前提

(15)

3

確率論速習

11

3.2.

確率の求め方

3.2.1.

確率は面積 確率は全体の面積が

1

の図形にに占める事象の面積.

3.2.2.

積分

P(Xa) =

a

−∞

f (x)dx

(a)

積分

(1)

グラフ

y = f (x)

の囲む面積

a b

f (x)dx =

緑の領域の面積 計算方法:幅の狭い長方形で近似する

n k=1

f (

(anb)k

) × a b n

n

−→

→∞

a b

f (x)dx (b)

積分

(2)b → ∞

a b

f (x)dx

b

−→

→∞

a

−∞

f (x)dx

(16)

3.3.

正規分布

3.3.1.

正規分布

g(x; µ, σ) = 1

2πσ

2

e

(x−µ)22 とおく.

P(Xa) =

a

−∞

g(x; µ, σ)dx

となるとき,確率変数

X

は平均

µ

,分散

σ

2 の正規分布にしたがうという

(記号 X N (µ, σ

2

)).

3.3.2.

身近な

e

x 年利

x

で預金.年

n

回の利息

(複利).1

年後には

(

1 + x n

)

n

n → ∞

とする

(連続複利)

e

x

エクセルで試してみよう! (EXP(x)との比較)

x 1 0.1 0.3 4

exp(x) 1 5 .. .

100,000,000

(17)

3

確率論速習

13

3.3.3.

標準化

X N(µ, σ

2

)

ならば,

X µ

σ N(0, 1) ( ∵ )

簡単な変数変換です…

P

( X µ

σa

)

= P(Xµ + σa) =

µ+σa

−∞

1

2πσ

2

e

(x−µ)22

dx

=

a

−∞

1 2π e

y

2 2

dy

(

y = x µ σ

) . 3.3.4.

エクセルで計算するには…

X N (0, 1)

のとき;

(a) P(Xa) = NORM.S.DIST(a,TRUE)

(b) P(Xa) = α

となる

a; a = NORM.S.INV(α)

(18)

4.

差はあるのか

?—

平均の差の検定

4.1.

検定の考え方

4.1.1.

問題

2

種類の工程で

X

工程,Y工程で製品を作る.

Y

工程の方が経費が掛かる.

X

工程で

100

個,Y工程で

80

個試作してみた.

X

工程で作った製品の平均寿命は

1

万時間,Y工程で作った製品の平 均寿命は

1

1

千時間であった.

もし,この

1

万時間と

1

1

千時間に「差がない」と言えるならば,

Y

程を採用できる.

4.1.2.

アプローチ

(a) “平均の差は 0

という仮定”をおく.

(b)

確からしさ

95%で考えることにする.

(c) | “平均の差”

から作られる量

|a

となる確からしさが

95%となる a

を見つける.

(d) |

平均の差

11000 10000 = 1000

から作られる量

| > a

5%しか起きないことが起きている

⇒ 仮定が間違っている ⇒ 「差はある」

※ 背理法もどき

;

2は有理数でない.

2は有理数と仮定する.すると,

2 =pq (p, q1以外に共通の 約数を持たない)と表現できる.両辺を二乗すると2 =pq22 となる.q2倍すれば,2q2=p2 である.これよりp2を約数として持つ.よって,p= 2rと表現できる.これを代入する と,2q2= 4r2となる.両辺を2で割ると,q2= 2r2を得る.これよりq2を約数として 持つ.以上より,pqは共通の約数2を持つ.これは矛盾である.よって,

2は有理数で はない.

4.1.3.

統計学の言葉では

(a)

帰無仮説

H

0

(b)

有意水準

α;確からしさ 1 α

で考える

(c)

どのようなモデルを考えるかによる

(d)

帰無仮説を棄却する

(19)

4

差はあるのか?—平均の差の検定

15

4.2.

モデルの導入

4.2.1.

モデル

X

工程の試作品の個々の寿命

X

1

, . . . , X

100,Y工程の試作品の個々 の寿命

Y

1

, . . . , Y

80

X

i

= (真の寿命) + (誤差)

i

= µ

X

+ e

i

Y

j

= (

真の寿命

) + (

誤差

)

j

= µ

Y

+ E

j

となっている.

さらに,

e

1

, . . . , e

100

, E

1

, . . . , E

80は独立で

N(0, σ

2

)

4.2.2.

正規分布にかかわる事実

(a) U N(µ

U

, σ

U2

),V N

V

, σ

V2

)

独立

U + V N

U

+ µ

V

, σ

2U

+ σ

V2

)

(b) W N (µ, σ

2

)

aW N (aµ, a

2

σ

2

), W µ

σ N (0, 1) (c) Z

1

, . . . , Z

n

(独立, N (µ, σ

2

))

Z

n

= Z

1

+ · · · + Z

n

n N

( µ, σ

2

n )

4.2.3. X

工程,Y工程ならば

X

100

N (

µ

X

, σ

2

100

)

, Y

80

N (

µ

Y

, σ

2

80 ) X

100

Y

80

N

(

µ

X

µ

Y

, σ

2

( 1

100 + 1 80

)) . (a)

帰無仮説『H0;µX

= µ

Y』の下では

X

100

Y

80

N (

0, σ

2

( 1

100 + 1 80

))

X

100

Y

80

σ

2

( 1 100 + 1

80

) N(0, 1)

[標準正規分布にかかわる事実] Z N(0, 1)

のとき,

P( | Z |a) = Φ(a) Φ( a) = 2Φ(a) 1

ただし

Φ(a) =

a

−∞

1 2π e

x

2 2

dx.

(b)

有意水準

α

に対する

a

は,

1 α = 2Φ(a) 1

を解いて,

Φ(a) = 1 α 2

(

a = NORM.S.INV(1

α2

)

)

(20)

有意水準

5%=0.05

ならば,

a = NORM.S.INV(0.975) = 1.96

である.

よって,

X

100

Y

80

σ

2

( 1 100 + 1

80 )

≦ 1.96

95%

の確からしさで起きる.

(d) σ

2

?

既知とすれば,たとえば,

σ

2

= 100

であれば,

X

100

Y

80

√ 100

( 1 100 + 1

80 )

≦ 1.96

95%

の確からしさで起きる.

実際のデータでは

X

100

Y

80

= 1000

であるから,(左辺) = 666.7となり,

1.96

よりはるかに大きい.

よって帰無仮説は棄却される=平均寿命は異なる.

4.2.4.

一般に

2が既知のとき)

X

群の標本数は

n

X,標本平均は

X = AVERAGE([x

の範囲]).

Y

群の標本数は

n

Y,標本平均は

Y = AVERAGE([y

の範囲])

帰無仮説

H

0;X群と

Y

群の『真の平均値』は同じ

有意水準を

α

を決める

X Y

σ

2

( 1 n

X

+ 1 n

Y

)

> NORM.S.INV(1

α2

)

ならば,帰無仮説を棄却する(=

X

群と

Y

群の平均値は同じでない).

4.2.5.

有意水準

=

危険率

有意水準

0.05(5%)

で棄却するということは,5%しか起きないことが起き

ているので,帰無仮説は正しくないとすることである.したがって,『5%の 誤り』を内包している.

(21)

4

差はあるのか?—平均の差の検定

17

4.2.6.

やってみよう

n

A

X

A

n

B

Y

B

α σ

2

| · · · | NORM.S.INV

棄却

100 220 200 219.6 0.05 1

100 220 200 219.6 0.1 1 100 220 200 219.6 0.01 1 100 220 200 219.7 0.05 1 100 220 200 219.7 0.1 1 100 220 200 219.7 0.01 1 100 220 200 219.76 0.05 1 100 220 200 219.76 0.1 1 100 220 200 219.76 0.01 1

絶対値は

ABS(x)

4.2.7. σ

2が未知の場合

X

群の標本数は

n

X,標本平均は

X = AVERAGE([x

の範囲]).

Y

群の標本数は

n

Y,標本平均は

Y = AVERAGE([y

の範囲

])

帰無仮説

H

0;A群と

B

群の真の平均値は同じ

有意水準を

α

を決める

t

X,Y

= X Y

S

XX

+ S

Y Y

n

X

+ n

Y

2

( 1 n

X

+ 1 n

Y

)

とおく.ただし,

S

XX

=

nX

i=1

(X

i

X )

2

= VAR.P([x

の範囲])

× n

X

S

Y Y

=

nY

j=1

(Y

j

Y )

2

= VAR.P([y

の範囲])

× n

Y

.

もし

| t

X,Y

| > T.INV.2T(α, n

X

+ n

Y

2)

ならば,帰無仮説を棄却する(=

X

群と

Y

群の平均値は同じでない).

4.2.8. What’s behind! — t-

分布

(a)

重要な事実:帰無仮説の下で

t

X,Y は自由度

n

X

+ n

Y

2

t-分布に

従う.

(b) W

が自由度

n

t-分布に従うとは,

P(Wa) =

a

−∞

1

n B(

n2

,

12

) 1

(1 +

xn2

)

n+12

dx = T

n

(a)

(22)

ただし,

B(a, b) =

1 0

x

a1

(1 x)

b1

dx.

グラフにしてみると

(c)

ならば,考え方は前と同じ.

P( | t

X,Y

|a) = T

nX+nY2

(a) T

nX+nY2

( a) = 2T

nX+nY2

(a) 1

から,

1 α = 2T

nX+nY2

(a) 1

を解けばよい.この解

a

はエクセルの関数を用いて次のように求めら れる

;

a = T.INV(1 α

2 , n

X

+ n

Y

2) = T.INV.2T(α, n

X

+ n

Y

2).

4.2.9.

例題

有意水準

0.01, 0.05, 0.1

X; 581, 700, 597, 534, 596, 582, 538, 588, 581, 539 Y; 543, 510, 580, 520, 506, 550

4.2.10.

やってみよう

有意水準

0.01, 0.05, 0.1

X; 53, 59, 51, 58, 57, 55, 53, 56, 54, 51, 54, 60 Y; 58, 57, 58, 60, 58, 56, 58, 57, 56, 55 4.3.

片側検定

4.3.1.

大小関係ありそうなときの検定

先の考察は『X工程の平均値=Y 工程の平均値』について判定した.たと えば,Y 工程の方が新鋭機械を使っているため,µX

µ

Y となっている可 能性が高いと予想できたとしよう.このとき,σ2が既知の場合も未知の場 合も,X

Y 0

となっている可能性が高いと思われる.すなわち,X

Y

0

を中心に対称に正負に散らばるのではなく,負側に偏っていることが 予想される.ならば,

| X Y | > a

を評価するよりも

X Y > a

を評価し たほうが精度が上がるはずである.

 このような検定を片側検定と呼んでいる.なお,先のような絶対値の入っ た検定は両側検定と呼ばれている.

4.3.2.

検定の実行

(a)

帰無仮説『

H

0

µ

X

= µ

Y

(b) σ

2が既知の場合は

P

( X Y

σ

2

( 1 n

X

+ 1 n

Y

) a )

= Φ(a) =

a

−∞

1 2π e

x

2 2

dx

(23)

4

差はあるのか?—平均の差の検定

19

という関係式を,

σ

2が未知の場合は

P

( X Y

S

XX

+ S

Y Y

n

X

+ n

Y

2 ( 1

n

X

+ 1 n

Y

) a )

= T

nX+nY2

(a)

という関係式を用いる.それぞれの場合に応じて,有意水準

α

に対する

a

への依存を表すため

a(α)

と表記する)

Φ(a) = 1 α, T

nX+nY2

(a) = 1 α

を解いて得られる

a(α) = NORM.S.INV(1 α), a(α) = T.INV(1 α, n

X

+ n

Y

2)

である.

 データから得られる値をこの

a(α)

と比較して棄却するかどうかを決める;

X Y

σ

2

( 1 n

X

+ 1 n

Y

) > a(α), X Y

S

XX

+ S

Y Y

n

X

+ n

Y

2 ( 1

n

X

+ 1 n

Y

) > a(α)

ならば棄却する.

(24)

5.

差はあるのか

?—

独立性の検定

5.1.

サンドイッチの嗜好

5.1.1.

問題

男性,女性に好きなサンドイッチを選んでもらった結果次のようになった.

性別による嗜好の差があるといえるだろうか

?

卵サンド カツサンド 野菜サンド ハムサンド

男性

20 32 24 28

女性

28 18 30 20

※このような表をクロス集計表という.

5.1.2.

安直に

棒グラフを書いて比べてみる.

5.1.3.

もう少し説得力を

調査を受けた人は

200

(

男性

104

人,女性

96

)

男性の割合は

104

200

,女性の割合は

96

卵,カツ,野菜,ハムが好きな人はそれぞれ

200 48,50,54,48

卵,カツ,野菜,ハムが好きな人の割合はそれぞれ

48

200

50 200

54

200

48 200

もし『男女に嗜好の差がない』のなら,男性で卵サンドが好きな人は

200 × 104

200 × 48

200 = 24.96 (下図)

(25)

5

差はあるのか?—独立性の検定

21

このときの差

24.96 20 = 4.96

が『嗜好に差がない』という仮定と のズレである.したがって,このような差の二乗の総和が

小さい

ら,『嗜好に差がない』という仮定を認められる.

5.2.

ピアソンの

χ

2

(カイ二乗)

独立性検定

5.2.1.

一般の場合

M

種類のグループ

A

1

, . . . , A

M について,

N

種類の性質

B

1

, . . . , B

N

へのグループによる相関の違いがあるかどうかを調べる.

n

個のサンプルデータをクロス集計表に整理する.

B

1

B

2   

· · ·

  

B

N

A

1

S

11

S

12

S

1N

.. .

A

M

S

M1

S

M2

S

M N

p

i

= S

i1

+ · · · + S

iN

n , q

j

= S

1j

+ · · · + S

M j

n χ

2

=

M i=1

N j=1

(S

ij

np

i

q

j

)

2

np

i

q

j とおく.

※ クロス集計表に小計セルと

p

i

, q

jセルを作るとよい.

B

1

B

2   

· · ·

  

B

N

p

i

A

1

S

11

S

12

S

1N

S

1A

p

1

.. .

A

M

S

M1

S

M2

S

M N

S

MA

p

M

S

1B

S

B2

S

NB

q

j

q

1

q

2

q

N

有意水準を

α

に対し,

χ

2

> CHISQ.INV(1 α, (M 1)(N 1))

ならば,確率

α

でしか起きない事象が起きている.

⇒ 棄却

=

グループ間に性質

B

の差はある.

5.2.2.

サンドイッチでは

M = 2,N = 4

である.クロス集計表を作って計算すると

χ

2

= 6.94

なる.

  

CHISQ.INV(0.9, 3) = 6.25,

(26)

  

CHISQ.INV(0.95, 3) = 7.81

  

CHISQ.INV(0.99, 3) = 11.3487

であるから,有意水準

0.1

ならば棄却されるが,有意水準

0.05

0.01

では 棄却されない.

5.2.3. What’s behind!—カイ二乗分布

(a)

帰無仮説

A

1

, . . . , A

M

B

1

, . . . , B

N は独立である.(グループ間に性

B

の差はない).

(b) n

が大きければ,

χ

2は自由度

(M 1)(N 1)

のカイ二乗分布に従う

(c)

自由度

k

のカイ二乗分布

P(χ

2

a) =

a 0

1 2

k

Γ(

k2

)

x

k−22

e

x

2 2

dx.

ただし,

Γ(y) =

0

x

y1

e

x

dx.

※ グラフを描いてみよう

(d)

有意水準

α

に対し,a

= CHISQ.INV(1 α, k)

は,

P(χ

2

a) = 1 α

を満たす.

検定の枠組みに入った!

5.2.4.

やってみよう

10

25 48 33 28 30

35 35 27 36 50

40 28 43 22 5.3.

適合度検定

5.3.1.

問題

これまで卵サンド,カツサンド,野菜サンド,ハムサンドの売り上げの比は

3:2:3:2

であった.新規商品に置き換えて

1000

個を試験的に売り出したと

ころ,それぞれ

280,215,314,191

個売れた.以前通りの売り上げ比だと いってよいだろうか?

5.3.2.

安直に

クロス集計表を拡張して見比べてみる;

(27)

5

差はあるのか?—独立性の検定

23

カツ 野菜 ハム

280 215 314 191

予想比率

0.3 0.2 0.3 0.2

予想売上

300 200 300 200 5.3.3.

統計的手法

性質

B

1

, . . . , B

N の起きる割合が

p

1

, . . . , p

N となっているかどうかを 調べる.

n

個のサンプルについて,Biの起きた度数を数え上げ,クロス集計表 を作成する.

B

1

B

2   

· · ·

  

B

N

X

1

X

2

X

N

χ

2

=

N i=1

(X

i

np

i

)

2

np

i

とおく.

N

が大きければ,χ2は自由度

N 1

のカイ二乗分布に従う.

有意水準

α

に対し,

χ

2

≦ CHISQ.INV(1 α, N 1)

ならば,帰無仮説を棄却しない!=起きる割合は

p

1

, . . . , p

Nであると考 える.

※ 『棄却しない』ことが重要.

※ 推論としては弱い;『a2

= 4

とする.もし

a = 2

ならば,a2

= 4

である.

よって,a

= 2

である』という論法.

5.3.4.

サンドイッチの場合

N = 4

なので自由度は

3

χ

2

= 3.51

で,

  

CHISQ.INV(0.9, 3) = 6.25

  

CHISQ.INV(0.95, 3) = 7.81

  

CHISQ.INV(0.99, 3) = 11.34

なので,すべて棄却されない.

5.3.5.

やってみよう

これまで卵サンド,カツサンド,野菜サンド,ハムサンド,ミックスサンド の売り上げの比は

2:1:2:2:3

であった.新規商品に置き換えて

1000

個を試験 的に売り出したところ,それぞれ

210,90,190,190,320

個売れた.以前 通りの売り上げ比だといってよいだろうか?

(28)

6.

組み合わせで売れ行きは変わる

?—

交互作用の検定

6.1.

はじめに

豚骨ラーメン店で、スープの濃さが普通で大きなチャーシューを

2

枚載せたものが 一番よく売れるのではないか、という話が出た。そこで実際二日にわたってスー プの濃さ、チャーシューの量を変えて売り上げを調べてみたところ、次のような 結果となった。

1

2

3

2

濃い

93 95 97 94

95 104 106 101

普通

93 97 107 120

92 91 95 115

薄い

94 97 99 104

100 94 101 107

さて、スープの濃さが普通で大きなチャーシューを

2

枚載せたものが一番よ く売れるといえるだろうか?

6.2.

グラフでは

確かに、とくに売れるように見える。

数値で説明できるだろうか?

6.3.

分散分析—交互作用

6.3.1.

要因 結果に影響を及ぼす二つの要因

A,B

を考える.それぞれを因子と

いう.

 上の例では,スープが因子

A

であり,チャーシューが因子

B

となる.

6.3.2.

水準 因子は,いくつかの値をとり,これを水準という.

 上の例では,因子

A

は「濃い,普通,薄い」の

3

水準を,因子

B

は「大

1

枚,小

2

枚,小

3

枚,大

2

枚」の

4

水準をもっている.

(29)

6

組み合わせで売れ行きは変わる?—交互作用の検定

25

6.3.3.

データ因子

A

A

1

, . . . , A

a

a

個の水準,因子

B

B

1

, . . . , B

b

b

個の 水準をもつとし,それぞれの水準の組み合わせで

r

回繰り返してデータを とったとする.このとき,

A

iかつ

B

jという組み合わせでのデータは,

x

ij1

, x

ij2

. . . , x

ijr

r

個である.

6.3.4.

データ平均

次のように定義する.

x

i••

= 1 br

b j=1

r k=1

x

ijk

(A

i水準のデータの平均値)

x

j•

= 1 ar

a i=1

r k=1

x

ijk

(B

j水準のデータの平均値)

x

ij•

= 1 r

r k=1

x

ijk

(A

i

× B

j水準のデータの平均値)

x

•••

= 1 abr

a i=1

b j=1

r k=1

x

ijk

(全データの平均値)

6.3.5.

平方和

S

A×B

= r

a i=1

b j=1

(x

ij•

x

i••

x

j•

+ x

•••

)

2

S

e

=

a i=1

b j=1

r k=1

(x

ijk

x

ij•

)

2 とおく.

6.3.6.

平均平方

ϕ

A×B

= (a 1)(b 1), ϕ

e

= ab(r 1) V

A×B

= S

A×B

ϕ

A×B

, V

e

= S

e

ϕ

e と定める.

6.3.7.

帰無仮説『交互作用効果はない』

参照

関連したドキュメント

2変数の関係1:散布図,共分散・相関係数 2変数の関係2:クロス集計,クラメルの連関係数 2変数の関係3:点グラフ,相関比. 堀田

分配関数に関する古典統計力学の近似 注: ややまどろっこしいが、基本的な考え方は、q-p 空間において、 ①エネルギー En を取る量子状態

4.資本蓄積率と労働分配率の全規模と中小規模の散布図比較 縦軸に資本蓄積 率,横軸に労働分 配率をとって散 布図を描き,手前 に全産業の全規

3‑34‑3 Otsuka, Bunkyo‑ku, Tokyo,

この種の教科書はもううんざりするほど出版されているが,自分の講義計画にぴったり

コンクリート構造物の設計 講義 2単位

平 衡状態では、自 由電 子が 空間的に一様に分 布しているとしよう。しかし何らかの原因でその分布 に乱 れが 生じると、ある場所での電荷 密度分布

[r]